علم داده مجموعهای از اصول، تعاریف مسئله، الگوریتمها و فرآیندهای استخراج الگوهای غیرقابل مشاهده و مفید مجموعهدادههای بزرگ را در بر میگیرد. بسیاری از اصول علم داده در زمینههای مرتبط مانند یادگیری ماشین و دادهکاوی توسعه یافتند. در واقع اصطلاحات علم داده، یادگیری ماشین و دادهکاوی اغلب به جای یکدیگر به کار میروند. وجه اشتراک این زمینهها تمرکز بر بهبود تصمیمگیری از طریق تجزیه و تحلیل دادههاست. با این وجود اگر چه علم داده از رشتههای دیگر وام میگیرد اما دامنه گستردهتری راشامل میشود. یادگیری ماشین (ML)۱ بر طراحی و ارزیابی الگوریتمهای استخراج الگوهای داده متمرکز است. دادهکاوی۲ عموما با تجزیه و تحلیل دادههای ساختار یافته سر و کار داشته و در بیشتر مواقع بر کاربردهای تجاری تاکید میکند. علم داده۳ علاوه بر در بر گرفتن تمامی این ملاحظات چالشهای دیگری مانند دریافت، تصفیه و تبدیل دادههای ساختار نیافته وب و رسانههای اجتماعی، استفاده از فناوریهای کلانداده۴ به منظور ذخیره و پردازش مجموعه دادههای بزرگ و ساختار نیافته و سوالات مربوط به اخلاق و مقررات دادهها را نیز در بر میگیرد.
با استفاده از علم داده میتوان الگوهای متنوعی را استخراج کرد. برای مثال ممکن است بخواهیم الگوهایی را استخراج کنیم که به ما کمک کنند گروهی از مشتریان را شناسایی کنیم که رفتارها و سلایق مشابهی دارند. این امر در واژهنامه تجارت بهعنوان تقسیمبندی مشتری۵ معروف است و در علم داده خوشهبندی۶ نامیده میشود. به عبارت دیگر ممکن است بخواهیم الگویی را استخراج کنیم که محصولاتی را شناسایی کند که اغلب با هم خریداری میشوند که در اصطلاح قانون وابستگی۷ نامیده میشود. یا ممکن است بخواهیم الگوهایی را استخراج کنیم که وقایع عجیب یا غیرطبیعی را شناسایی کنند از جمله مطالبات نادرست حق بیمه؛ رویهای که بهعنوان ناهنجاری شناخته میشود. در نهایت ممکن است بخواهیم الگوهایی را شناسایی کنیم که در طبقهبندی موضوعات به ما کمک کنند. به عنوان مثال قانون زیر نشان میدهد که الگوی طبقهبندی که از مجموعه دادههای ایمیل استخراج شده است چگونه میتواند باشد: اگر ایمیلی حاوی عبارت «به راحتی درآمد کسب کنید» باشد احتمالا هرزنامه است. شناسایی این نوع قوانین طبقهبندی، به پیشبینی معروف است.
اگر متخصص انسانی به راحتی بتواند الگویی را در ذهن خود ایجاد نماید، این الگو ارزش این را ندارد که برای «یافتن آن» با استفاده از علم داده وقت صرف کرد
ممکن است اصلاح پیشبینی اقدام عجیبی به نظر برسد، زیرا این قانون پیشبینی نمیکند که در آینده چه اتفاقی خواهد افتاد: این ایمیل یک ایمیل اسپم است یا نیست. بنابراین، بهترین کار این است که به جای پیشبینی آینده به الگوهای پیشبینی ارزش گمشده یک ویژگی فکر کنیم. در این مثال پیشبینی کردیم که آیا این ایمیل از نظر ویژگی باید در «اسپم» قرار بگیرد یا خیر.
اگرچه میتوانیم از علم داده برای استخراج انواع مختلفی از الگوها استفاده کنیم اما همواره درصدد هستیم که این الگوها غیرقابل مشاهده و مفید باشند. مثال طبقهبندی ایمیل در پاراگراف قبلی بسیار ساده و روشن بود و در صورتی که تنها قانون استخراج شده از علم داده باشد مایوس نمیشویم. برای مثال این قانون طبقهبندی ایمیل تنها یک ویژگی ایمیل را بررسی میکند: آیا این ایمیل حاوی عبارت «به راحتی درآمد کسب کنید» است؟ اگر متخصص انسانی به راحتی بتواند الگویی را در ذهن خود ایجاد نماید، این الگو ارزش این را ندارد که برای «یافتن آن» با استفاده از علم داده وقت صرف کرد. به طور کلی، علم داده زمانی مفید است که مثالهای دادهای زیادی داشته باشیم و الگوها بسیار پیچیدهتر از آن باشند که بتوان بهطور دستی توسط انسان آنها را ایجاد کرد. میتوانیم مثالهای دادهای بسیاری را تعریف کنیم که بیشتر از تعدادی هستند که یک متخصص انسانی بتواند به راحتی آنها را بررسی نماید. با توجه به پیچیدگی الگوها باز هم میتوانیم آن را نسبت به تواناییهای انسانی تعریف کنیم. ما انسانها در تعریف قوانینی که یک، دو یا حتی سه ویژگی (که به متغیر نیز معروف است) را بررسی میکنند نسبتا خوب عمل میکنیم اما وقتی به بیش از سه ویژگی بر میخوریم برای کنترل تعاملات بین آنها با مشکل مواجه میشویم.